高并发多个进程写入到一个文件

合集下载

程序员需要晓得的术语

程序员需要晓得的术语⼀、系统开发中的术语1、⾼内聚/低耦合（1）概念在软件设计中通常⽤耦合度和内聚度作为衡量模块独⽴程度的标准。

划分模块的⼀个准则是⾼内聚低耦合。

从模块粒度来看，⾼内聚：尽可能类的每个成员⽅法只完成⼀件事（单⼀责任原则）；低耦合：减少类内部，⼀个成员⽅法调⽤另⼀个成员⽅法。

从类⾓度来看，⾼内聚低耦合：减少类内部，对其他类的调⽤；从功能块来看⾼内聚低耦合：减少模块之间的交互复杂度（接⼝数量，参数数据）即横向：类与类之间、模块与模块之间；纵向：层次之间；尽可能，内容内聚，数据耦合。

（2）降低耦合度的⽅法1. 少使⽤类的继承，多⽤接⼝隐藏实现的细节。

⾯向对象编程引⼊接⼝除了⽀持多态外，隐藏实现细节也是其中⼀个⽬的。

2. 模块的功能化分尽可能的单⼀，功能单⼀的模块供其它模块调⽤的机会就少。

3. 遵循⼀个定义只在⼀个地⽅出现。

4. 少使⽤全局变量。

5. 类属性和⽅法的声明少⽤public，多⽤private关键字。

6. 多⽤设计模式，⽐如采⽤MVC的设计模式就可以降低界⾯与业务逻辑的耦合度。

7. 尽量不⽤“硬编码”的⽅式写程序，同时也尽量避免直接⽤SQL语句操作数据库。

8. 最后当然就是避免直接操作或调⽤其它模块或类（内容耦合）；如果模块间必须存在耦合，原则上尽量使⽤数据耦合，少⽤控制耦合，限制公共耦合的范围，避免使⽤内容耦合。

（3）增强内聚度⽅法1. 模块只对外暴露最⼩限度的接⼝，形成最低的依赖关系。

2. 只要对外接⼝不变，模块内部的修改，就不得影响其他模块。

3. 删除⼀个模块，应当只影响有依赖关系的其他模块，⽽不应该影响其他⽆关部分。

2、过度设计过度设计是指设计出来的系统⽐恰到好处要复杂臃肿的多，过度的封装、⼀堆继承、接⼝和⽆⽤的⽅法，超复杂的xml配置⽂件，简⾔之杀鸡使⽤了宰⽜⼑。

3、过早优化过早指的不是在开发过程的早期，⽽是在还没弄清楚需求未来的变化的⾛向的时候。

你的优化不仅可能导致你⽆法很好地实现新的需求，⽽且你对优化的预期的猜测有可能还是错的，导致实际上你除了把代码变复杂以外什么都没得到。

linux 对写入相同文件处理机制

linux 对写入相同文件处理机制
在Linux中，多个进程同时写入同一个文件时，系统会根据文件的打开模式和锁定机制来决定如何处理。

1. 打开模式：
- 如果文件被以"读"模式打开，则其他进程也可以以"读"模式打开该文件，但不能以"写"模式打开。

- 如果文件被以"写"模式打开，则其他进程不能以任何模式打开该文件。

2. 锁定机制：
- 排他锁（exclusive lock）：当一个进程以"写"模式打开文件时，会设置排他锁，其他进程无法以任何模式打开该文件，直到排他锁被释放。

- 共享锁（shared lock）：当一个进程以"读"模式打开文件时，会设置共享锁，其他进程可以以"读"模式打开该文件，但不能以"写"模式打开。

如果多个进程同时以"写"模式打开同一个文件，则系统会先给其中一个进程加上排他锁，其他进程会等待锁的释放。

一旦排他锁被释放，系统会选择一个等待的进程加上排他锁。

如果多个进程同时以"读"模式打开同一个文件，则系统会给所有进程加上共享锁，进程之间可以同时读取文件内容。

需要注意的是，文件锁是一种机制，而不是强制性的规则。

进程可以选择不遵循文件锁机制，从而引发竞争条件和数据不一致的问题。

因此，在多个进程同时写入同一个文件时，需要合理地使用文件锁以确保数据的正确性。

性能测试常见问题分析

性能测试常见问题分析⼀、内存溢出1、堆内存溢出现象：（1）压测执⾏⼀段时间后，系统处理能⼒下降。

这时⽤JConsole、JVisualVM等⼯具连上服务器查看GC情况，每次GC回收都不彻底并且可⽤堆内存越来越少。

（2）压测持续下去，最终在⽇志中有报错信息：ng.OutOfMemoryError.Java heap space。

排查⼿段：（1）使⽤jmap -histo pid > test.txt命令将堆内存使⽤情况保存到test.txt⽂件中，打开⽂件查看排在前50的类中有没有熟悉的或者是公司标注的类名，如果有则⾼度怀疑内存泄漏是这个类导致的。

（2）如果没有，则使⽤命令：jmap -dump:live,format=b,file=test.dump pid⽣成test.dump⽂件，然后使⽤MAT进⾏分析。

（3）如果怀疑是内存泄漏，也可以使⽤JProfiler连上服务器在开始跑压测，运⾏⼀段时间后点击“Mark Current Values”，后续的运⾏就会显⽰增量，这时执⾏⼀下GC，观察哪个类没有彻底回收，基本就可以判断是这个类导致的内存泄漏。

解决⽅式：优化代码，对象使⽤完毕，需要置成null。

2、永久代 / ⽅法区溢出现象：压测执⾏⼀段时间后，⽇志中有报错信息：ng.OutOfMemoryError: PermGen space。

产⽣原因：由于类、⽅法描述、字段描述、常量池、访问修饰符等⼀些静态变量太多，将持久代占满导致持久代溢出。

解决⽅法：修改JVM参数，将XX:MaxPermSize参数调⼤。

尽量减少静态变量。

3、栈内存溢出现象：压测执⾏⼀段时间后，⽇志中有报错信息：ng.StackOverflowError。

产⽣原因：线程请求的栈深度⼤于虚拟机所允许的最⼤深度，递归没返回，戒者循环调⽤造成。

解决⽅法：修改JVM参数，将Xss参数改⼤，增加栈内存。

栈内存溢出⼀定是做批量操作引起的，减少批处理数据量。

Log4j优化（一）扩展Log4j来实现性能优化的异步日志收集器

Log4j优化（一）扩展Log4j来实现性能优化的异步日志收集器日志收集在互联网企业尤其是大数据时代是一件非常重要的事情，日志记录着用户行为和系统行为，是一种重要的数据来源。

Log4j是Java应用程序使用的最多的一种日志收集工作。

目前大量的Java应用程序都使用着Lo4j 1.2.X版本，Log4j 1.X版本饱受诟病的原因是使用了大量的锁，在高并发的情况下影响了系统的性能。

这篇简单提供一种思路，说说如何扩展一下Log4j，提升一下Log4j的性能。

网上有很多分析Log4j源码的文章，这里不重复说了，只简单分析一下最重要的几个组件。

先看一下Log4j的配置文件log4j.xml[java] view plain copy1.<?xml version="1.0" encoding="UTF-8" ?>2.<!DOCTYPE log4j:configuration SYSTEM "log4j.dtd">3.4.<log4j:configuration xmlns:log4j="/log4j/">5.<appender name="rootAppender" class="org.apache.log 4j.DailyRollingFileAppender">6.<param name="File" value="test.log" />7.<param name="DatePattern" value="'.'yyyy-MM-dd" />8.<layout class="org.apache.log4j.PatternLayout">9.<param name="ConversionPattern" value="%d{yyyy-MM-dd HH:mm:ss.SSS} %5p %c{1}:%L - %m%n" />10.</layout>11.</appender>12.<logger name="com.test" additivity="false">13.<level value="debug" />14.<appender-ref ref="rootAppender" />15.</logger>16.<root>17.<level value="debug" />18.<appender-ref ref="rootAppender" />19.</root>20.</log4j:configuration>从log4j.xml里面我们就可以看到Log4j最主要的几个组件1. Logger，表示日志收集器，包含了各种Level下收集日志的方法，比如debug, info, error等。

c++如何将一个文件夹里的所有文件追加到另一个文件中

c++如何将⼀个⽂件夹⾥的所有⽂件追加到另⼀个⽂件中⽅法：1、打开A⽂件，准备追加信息。

fin.open(file_Name, ios_base::app);2、依次打开⽂件夹中的⽂件，将内容追加到A中。

使⽤FindFirstFile（）跟FindNextFile（）；VC声明HANDLE FindFirstFile(LPCTSTR lpFileName, // file nameLPWIN32_FIND_DATA lpFindFileData // data buffer);参数说明HANDLE hFindFile搜索的⽂件句柄函数执⾏的时候搜索的是此句柄的下⼀⽂件 LPWIN32_FIND_DATA lpFindFileData 指向⼀个⽤于保存⽂件信息的结构体返回值如果调⽤成功返回⼀个句柄，可⽤来做为或参数调⽤失败返回为INVALID_HANDLE_VALUE(即-1) ,可调⽤来获取错误信息VC声明BOOL FindNextFile(HANDLE hFindFile, //searchhandleLPWIN32_FIND_DATA lpFindFileData //databuffer );功能说明继续查找FindFirstFile函数搜索后的⽂件参数说明HANDLE hFindFile搜索的⽂件句柄函数执⾏的时候搜索的是此句柄的下⼀⽂件LPWIN32_FIND_DATA lpFindFileData 指向⼀个⽤于保存⽂件信息的结构体返回值⾮零表⽰成功，零表⽰失败。

如不再有与指定条件相符的⽂件，会将GetLastError设置成ERROR_NO_MORE_FILES总体框架：WIN32_FIND_DATA FindFileData;HANDLE hFind = ::FindFirstFile(pcsDir, &FindFileData);string filename;if(INVALID_HANDLE_VALUE == hFind)return false;int flag = 1;while(flag != 0){flag = FindNextFile(hFind, &FindFileData);filename = FindFileData.cFileName;}FindClose(hFind);3、需注意的地⽅：⽬录的路径名需要：const char * pcsDir = "D:\\eng\\*.*";源代码：[cpp]1. #include <iostream>2. #include <fstream>3. #include <string>4. #include <windows.h>5. #include<stdio.h>6.7. usingnamespace std;8.9. constchar * file_Name = "listening.txt";10. constchar * pcsDir = "D:\\eng\\*.*"; ////////////////////////////////////11. ofstream fin;12.13. bool CombineFile(string filename);14. int iFindFiles();15.16. int main()17. {18.19. ifstream fin_read;20.21. fin_read.open(file_Name);22.23. char ch;24.25. if(!fin_read.is_open())26. {27. cout<< "can not open the file(fin_read)" << endl;28. return 0;29. }30. else31. {32. char ch;33. while (fin_read.get(ch))34. cout << ch;35.36. cout << endl <<endl;37.38. fin_read.close();39. }40.41. string str;42.43. cout << "if you wanna copy those files, please enter -- yes:" <<endl;44.45. cin >>str;46. if( str == "yes" )47. {48. fin.open(file_Name, ios_base::app);49.50. if( !fin )51. {52. cout <<"can not open the fin" <<endl;53. }54.55. else56. {57. iFindFiles();58. }59. }60.61. fin.close();62.63. return 0;64. }65.66. int iFindFiles( )67. {68.69. if (!pcsDir)70. {71. cout <<"can not open the dir" << endl;72. returnfalse;73. }74. cout << "open the dir" << endl;75.76. WIN32_FIND_DATA FindFileData;77. HANDLE hFind = ::FindFirstFile(pcsDir, &FindFileData);78.79. string filename;80.81. if(INVALID_HANDLE_VALUE == hFind)82. returnfalse;83.84. int flag = 1;85.86. while(flag != 0)87. {88. flag = FindNextFile(hFind, &FindFileData);89.90. filename = FindFileData.cFileName;91. int strSize = filename.size();92.93. if( strSize <= 3 )94. continue;95.96. string isStr = filename.substr(strSize-3, strSize);97. if( isStr == "lrc")98. {99. CombineFile(filename);100. }101. }102.103. FindClose(hFind);104.105. return 0;106. }107.108. bool CombineFile(string filename)109. {110. ifstream foutput;111.112. filename = "D:\\eng\\" + filename;113. cout << "the f1ile name is " << endl <<filename.c_str() <<endl; 114.115. foutput.open(filename.c_str());116.117. if( !foutput )118. {119. cout << "can not open the file" << endl<<endl;120. returnfalse;121. }122.123. char ch;124. while (foutput.get(ch))125. {126. fin<< ch;127. }128.129. fin << endl << endl;130.131. foutput.close();132.133. returntrue;134. }。

Hadoop大数据分析平台培训-傅一航

NN
DN
握手：版本检查，名称节点检查注册：节点检查，身份验证
数据块上报：块与DN的映射关系周期心跳：资源/负责/接受命令 – 存储目录 • dfs.data.dir – 心跳周期(s) • dfs.heartbeat.interval
数据校验和机制（Checksum）
DN同时保存块数据和校验和数据，校验和位数： io.bytes.per.checksu m 如果读取数据时发现校验和错误，则会重新从另一个副本读取，并且 NN会指示重新复制并恢复副本。
从节点
TaskTracker DataNode
TaskTracker DataNode
从节点
• HBase是Google BitTable的一个开源实现。 • 每张表的记录数可以多达几十亿行，上百万列 • 提供对结构化、半结构、非结构化大数据处理 • 提供实时读写和随机访问能力，可做实时数据处理，时延在毫秒级。但不适合更新和删除。
YB
ZB EB
MB
PB
GB
TB
1TB=103GB 1PB=106GB= 2^50字节 1EB =109GB = 2^60字节 1ZB =1012GB = 2^70字节
大数据的4V特征大容量Volume 多样性Variety 速度Velocity
价值Value
SaaS软件即服务（如Google Docs）
基于HDFS上的分布式的非结构化的NoSQL数据库。 2006年底由PowerSet的Chad Walters和Jim Kellerman发起
这些公司都在使用HBase。 Facebook、Intel、Twitter、 Adobe、Yahoo（960个节点）阿里巴巴、、淘宝（10个集群，每天增量5TB）

边缘缓存模式（Cache-AsidePattern）

边缘缓存模式（Cache-AsidePattern）边缘缓存模式(Cache-Aside Pattern)，即按需将数据从数据存储加载到缓存中。

此模式最⼤的作⽤就是提⾼性能减少不必要的查询。

1 模式1. 先从缓存查询数据2. 如果没有命中缓存则从数据存储查询3. 将数据写⼊缓存代码形如：public async Task<MyEntity> GetMyEntityAsync(int id){// Define a unique key for this method and its parameters.var key = string.Format("StoreWithCache_GetAsync_{0}", id);var expiration = TimeSpan.FromMinutes(3);bool cacheException = false;try{// Try to get the entity from the cache.var cacheItem = cache.GetCacheItem(key);if (cacheItem != null){return cacheItem.Value as MyEntity;}}catch (DataCacheException){// If there is a cache related issue, raise an exception// and avoid using the cache for the rest of the call.cacheException = true;}// If there is a cache miss, get the entity from the original store and cache it.// Code has been omitted because it is data store dependent.var entity = ...;if (!cacheException){try{// Avoid caching a null value.if (entity != null){// Put the item in the cache with a custom expiration time that// depends on how critical it might be to have stale data.cache.Put(key, entity, timeout: expiration);}}catch (DataCacheException){// If there is a cache related issue, ignore it// and just return the entity.}}return entity;}public async Task UpdateEntityAsync(MyEntity entity){// Update the object in the original data storeawait this.store.UpdateEntityAsync(entity).ConfigureAwait(false);// Get the correct key for the cached object.var key = this.GetAsyncCacheKey(entity.Id);// Then, invalidate the current cache objectthis.cache.Remove(key);}private string GetAsyncCacheKey(int objectId){return string.Format("StoreWithCache_GetAsync_{0}", objectId);}2 关注点2.1 缓存数据的选择对于相对静态的数据或频繁读取的数据，缓存是最有效的。

DBWR、CKPT、LGWR进程之间的合作

DBWR、CKPT、LGWR进程之间的合作将内存数据块写入数据文件实在是一个相当复杂的过程，在这个过程中，首先要保证安全。

所谓安全，就是在写的过程中，一旦发生实例崩溃，要有一套完整的机制能够保证用户已经提交的数据不会丢失；其次，在保证安全的基础上，要尽可能的提高效率。

众所周知，I/O 操作是最昂贵的操作，所以应该尽可能的将脏数据块收集到一定程度以后，再批量写入磁盘中。

直观上最简单的解决方法就是，每当用户提交的时候就将所改变的内存数据块交给DBWR，由其写入数据文件。

这样的话，一定能够保证提交的数据不会丢失。

但是这种方式效率最为低下，在高并发环境中，一定会引起I/O方面的争用。

oracle当然不会采用这种没有扩展性的方式。

oracle引入了CKPT和LGWR这两个后台进程，这两个进程与DBWR进程互相合作，提供了既安全又高效的写脏数据块的解决方法。

用户进程每次修改内存数据块时，都会在日志缓冲区（redo buffer）中构造一个相应的重做条目（redo entry），该重做条目描述了被修改的数据块在修改之前和修改之后的值。

而LGWR进程则负责将这些重做条目写入联机日志文件。

只要重做条目进入了联机日志文件，那么数据的安全就有保障了，否则这些数据都是有安全隐患的。

LGWR 是一个必须和前台用户进程通信的进程。

LGWR 承担了维护系统数据完整性的任务，它保证了数据在任何情况下都不会丢失。

LGWR将重做条目写入联机日志文件的情况分两种：后台写（background write）和同步写（sync write）。

触发后台写的条件有四个：1）每隔三秒钟，LGWR启动一次；2）在DBWR 启动时，如果发现脏数据块所对应的重做条目还没有写入联机日志文件，则DBWR触发LGWR 进程并等待LRWR写完以后才会继续；3）重做条目的数量达到整个日志缓冲区的1/3时，触发LGWR；4）重做条目的数量达到1MB时，触发LGWR。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

时，它就可以放心大胆的对文件进行锁定，独自享用。

所以一般的方案会是：
$fp = fopen ( "/tmp/lock.txt", "w+" );
fwrite ( $fp, "Write something here\n" );
flock ( $fp, LOCK_UN );
} else {
echo "Couldn't lock the file !";
}
fclose ( $fp );
但在PHP中，flock似乎工作的不是那么好！在多并发情况下，似乎是经常独占资源，不即时释放，或者是根本不释放，造成死锁，从而使服务器的cpu占用很高，甚至有时候会让服务器彻底死掉。

好像在很多linux/unix系统中，都会有这样的情况发生。

所以使用flock 之前，一定要慎重考虑。

那么就没有解决方案了吗？其实也不是这样的。

如果flock()我们使用得当，完全可能解决死锁的问题。

当然如果不考虑使用flock()函数，也同样会有很好的解决方案来解决我们的问题。

经过我个人的搜集和总结，大致归纳了解决方案有如下几种。

方案一：对文件进行加锁时，设置一个超时时间.
if ($fp = fopen ( $fileName, 'a' )) {
$startTime = microtime ();
do {
$canWrite = flock ( $fp, LOCK_EX );
if (! $canWrite)
usleep ( round ( rand ( 0, 100 ) * 1000 ) );
} while ( (! $canWrite) && ((microtime () - $startTime) < 1000) );
if ($canWrite) {
fwrite ( $fp, $dataToSave );
}
fclose ( $fp );
}
超时设置为1ms，如果这里时间内没有获得锁，就反复获得，直接获得到对文件操作权为止，当然。

如果超时限制已到，就必需马上退出，让出锁让其它进程来进行操作。

方案二：不使用flock函数，借用临时文件来解决读写冲突的问题。

大致原理如下：
1。

将需要更新的文件考虑一份到我们的临时文件目录，将文件最后修改时间保存到一个变量，并为这个临时文件取一个随机的，不容易重复的文件名。

2。

当对这个临时文件进行更新后，再检测原文件的最后更新时间和先前所保存的时间是否一致。

3。

如果最后一次修改时间一致，就将所修改的临时文件重命名到原文件，为了确保文件状态同步更新，所以需要清除一下文件状态。

4。

但是，如果最后一次修改时间和先前所保存的一致，这说明在这期间，原文件已经被修改过，这时，需要把临时文件删除，然后返回false,说明文件这时有其它进程在进行操作。

大致实现代码如下：
$dir_fileopen = "tmp";
function randomid() {
return time () . substr ( md5 ( microtime () ), 0, rand ( 5, 12 ) ); }
function cfopen($filename, $mode) {
global$dir_fileopen;
clearstatcache ();
do {
$id = md5 ( randomid ( rand (), TRUE ) );
$tempfilename = $dir_fileopen . "/" . $id . md5 ( $filename );
} while ( file_exists ( $tempfilename ) );
if (file_exists ( $filename )) {
$newfile = false;
copy ( $filename, $tempfilename );
} else {
$newfile = true;
}
$fp = fopen ( $tempfilename, $mode );
return$fp? array($fp, $filename, $id, @filemtime( $filename) ) : false; }
function cfwrite($fp, $string) {
return fwrite ( $fp [0], $string );
}
function cfclose($fp, $debug = "off") {
global$dir_fileopen;
$success = fclose ( $fp [0] );
clearstatcache ();
$tempfilename = $dir_fileopen . "/" . $fp [2] . md5 ( $fp [1] );
if((@filemtime( $fp[1] ) == $fp[3]) || ($fp[4] == true&& ! file_exists ( $fp [1] )) || $fp [5] == true) {
rename ( $tempfilename, $fp [1] );
} else {
unlink ( $tempfilename );
//说明有其它进程在操作目标文件，当前进程被拒绝
$success = false;
}
return$success;
}
$fp = cfopen ( 'lock.txt', 'a+' );
cfwrite ( $fp, "welcome to beijing.\n" );
fclose ( $fp, 'on' );
对于上面的代码所使用的函数，需要说明一下：
1.rename();重命名一个文件或一个目录，该函数其实更像linux里的mv。

更新文件或者目录的路径或名字很方便。

但当我在window测试上面代码时，如果新文件名已经存在，会给出一个notice,说当前文
件已经存在。

但在linux下工作的很好。

2.clearstatcache();清除文件的状态.php将缓存所有文件属性信息，以提供更高的性能，但有时，多进程在对文件进行删除或者更新操作时，php没来得及更新缓存里的文件属性，容易导致访问到最后更新时间不是真实的数据。

所以这里需要使用该函数对已保存的缓存进行清除。

方案三：对操作的文件进行随机读写，以降低并发的可能性。

在对用户访问日志进行记录时，这种方案似乎被采用的比较多。

先前需要定义一个随机空间，空间越大，并发的的可能性就越小，这里假设随机读写空间为[1-500],那么我们的日志文件的分布就为log1~到log500不等。

每一次用户访问，都将数据随机写到log1~log500之间的任一文件。

在同一时刻，有2个进程进行记录日志，A进程可能是更新的log32文件，而B进程呢？则此时更新的可能就为log399.要知道，如果要让B进程也操作log32,概率基本上为
1/500,差不多约等于零。

在需要对访问日志进行分析时，这里我们只需要先将这些日志合并，再进行分析即可。

使用这种方案来记录日志的一个好处时，进程操作排队的可能性比较小，可以使进程很迅速的完成每一次操作。

方案四：将所有要操作的进程放入一个队列中。

然后专门放一个服务完成文件操作。

队列中的每一个排除的进程相当于第一个具体的操作，所以第一次我们的服务只需要从队列中取得相当于具体操作事项就可以了，如果这里还有大量的文件操作进程，没关系，排到我们的队列后面即可，只要愿意排，队列的多长都没关系。

对于以前几种方案，各有各的好处！大致可能归纳为两类：
1。

需要排队（影响慢）比如方案一、二、四
2。

不需要排队。

（影响快）方案三
在设计缓存系统时，一般我们不会采用方案三。

因为方案三的分析程序和写入程序是不同步的，在写的时间，完全不考虑到时候分析的难度，只管写的行了。

试想一下，如我们在更新一个缓存时，如果也采用随机文件读写法，那么在读缓存时似乎会增加很多流程。

但采取方案一、二就完全不一样，虽然写的时间需要等待（当获取锁不成功时，会反复获取），但读文件是很方便的。

添加缓存的目的就是要减少数据读取瓶颈，从而提高系统性能。